cd TD3
python TD3_train_angle_speed.py --q_num=10 --batch_size=1024 --width=512 --port=11023

cd TD3
python TD3_train_gym.py --q_num=2 --batch_size=10000 --width=256
# 完全学不到 可能是学习率太大的问题，估计要小一点 3e-4可以了

# python TD3_train_gym.py --q_num=10 --batch_size=256 --width=256
# 1980epoch稳定9.3以上，q_min更快到达
# 2000epoch稳定9.3以上, q_0较慢也能到达

# python TD3_train_gym.py --q_num=2 --batch_size=256 --width=256
# 原始的td3 2q 1945epoch稳定9.3以上，q_min

# TD3+BC考虑offline learning的效果